# usage: <command> <hdir_a> <hdir_b> <hdir_result>
# hdir_a: <url, ...>
# hdir_b: <url, ...>
# hdir_result: <url>
# cal a-b

hadoop_conf="/home/work/luncai/hadoop-client/hadoop/conf/dbuild.xml"

input_dir_a=$1
input_dir_b=$2
output_dir=$3
hadoop fs -conf $hadoop_conf -rmr $output_dir

hadoop streaming -conf $hadoop_conf \
    -D mapred.job.groups="time" \
    -D mapred.job.priority=VERY_HIGH \
    -D mapred.job.name="cal delta" \
    -D mapred.job.map.capacity=1000 \
    -D mapred.job.reduce.capacity=1000 \
    -D mapred.map.tasks=1000 \
    -D mapred.reduce.tasks=1000 \
    -D stream.num.map.output.key.fields=1 \
    -D num.key.fields.for.partition=1 \
    -jobconf mapred.reduce.slowstart.completed.maps=0.8 \
    -input $input_dir_a \
    -input $input_dir_b \
    -output $output_dir \
    -mapper "sh m_assign_url_role.sh $input_dir_a" \
    -reducer "sh r_get_delta_url.sh" \
    -file m_assign_url_role.sh \
    -file r_get_delta_url.sh \
    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner



